feat(metadata): extract stream range index by lazy load StreamSetObject #2710

lifepuzzlefun · 2025-07-28T09:16:12Z

add StreamIdBloomFilter, help search objectId -> streamId
add StreamSetObjectRangeIndex help search (streamId, startOffset) -> objectId
when read sso from ObjectReader update the StreamSetObjectRangeIndex and StreamIdBloomFilter
getObjects support load the streamsetobjects by steps (5 sso each time)
support preload sso to help index not found case.
add S3StreamsMetadataImageTest which generate the image and compare if getObjects return right result.

fix checkstyle

fix spotbugs

fix lint

Copilot

Pull Request Overview

This pull request introduces lazy loading of StreamSetObject metadata with range indexing to optimize object retrieval performance. It adds a new indexing system that helps efficiently search for objects based on stream IDs and offsets.

Adds StreamSetObjectRangeIndex for mapping (streamId, startOffset) → objectId relationships
Implements StreamIdBloomFilter to optimize stream presence checks in stream set objects
Introduces incremental loading of stream set objects (5 at a time) with preloading strategies

Reviewed Changes

Copilot reviewed 5 out of 6 changed files in this pull request and generated 6 comments.

Show a summary per file

File	Description
StreamSetObjectRangeIndex.java	New index class providing lazy loading and caching of stream set object range mappings
S3StreamsMetadataImage.java	Updated getObjects implementation with incremental loading, preloading, and comprehensive debug context
S3StreamsMetadataImageTest.java	Updated test interface methods to match new RangeGetter signature
S3StreamsMetadataImageTest.java (core)	New comprehensive test suite for validating getObjects behavior with generated metadata
StreamMetadataManager.java	Added bloom filter implementation and updated range getter with indexing support

Comments suppressed due to low confidence (1)

metadata/src/main/java/org/apache/kafka/image/S3StreamsMetadataImage.java:445

The calculation 'newStartOffset + r.nextLong(0, newStartOffset)' will result in endOffset being between newStartOffset and 2*newStartOffset, but this seems incorrect as endOffset should typically be greater than startOffset. The bound should likely be a fixed range or use a different calculation.

        if (objects.size() > ctx.limit) {

Copilot · 2025-08-08T04:29:44Z

s3stream/src/main/java/com/automq/stream/s3/index/lazy/StreamSetObjectRangeIndex.java

+    public static final ExecutorService UPDATE_INDEX_THREAD_POOL = Executors.newSingleThreadExecutor(
+        ThreadUtils.createThreadFactory("StreamSetObjectRangeIndex", true));
+
+    private static final Object DUMMAY_OBJECT = new Object();


The constant name has a typo: 'DUMMAY_OBJECT' should be 'DUMMY_OBJECT'.

Suggested change

private static final Object DUMMAY_OBJECT = new Object();

private static final Object DUMMY_OBJECT = new Object();

Copilot · 2025-08-08T04:29:44Z

s3stream/src/main/java/com/automq/stream/s3/index/lazy/StreamSetObjectRangeIndex.java

+
+    public static StreamSetObjectRangeIndex getInstance() {
+        if (instance == null) {
+            synchronized (NodeRangeIndexCache.class) {


Synchronizing on NodeRangeIndexCache.class is incorrect for StreamSetObjectRangeIndex singleton initialization. This should synchronize on StreamSetObjectRangeIndex.class instead.

Suggested change

synchronized (NodeRangeIndexCache.class) {

synchronized (StreamSetObjectRangeIndex.class) {

Copilot · 2025-08-08T04:29:45Z

s3stream/src/main/java/com/automq/stream/s3/index/lazy/StreamSetObjectRangeIndex.java

+
+    public void touch(Long streamId) {
+        try {
+            expireCache.get(streamId, () -> DUMMAY_OBJECT);


Reference to misspelled constant 'DUMMAY_OBJECT' should be 'DUMMY_OBJECT'.

Suggested change

expireCache.get(streamId, () -> DUMMAY_OBJECT);

expireCache.get(streamId, () -> DUMMY_OBJECT);

Copilot · 2025-08-08T04:29:45Z

s3stream/src/main/java/com/automq/stream/s3/index/lazy/StreamSetObjectRangeIndex.java

+        }
+
+        withLock(streamId, () -> {
+            longLongTreeMap.remove(startOffset, objectId);


The TreeMap.remove(key, value) method removes the mapping only if the key maps to the specified value. This should likely be just remove(startOffset) to remove the mapping for the key, regardless of the current value.

Suggested change

longLongTreeMap.remove(startOffset, objectId);

longLongTreeMap.remove(startOffset);

Copilot · 2025-08-08T04:29:45Z

core/src/main/scala/kafka/log/stream/s3/metadata/StreamMetadataManager.java

+
+        // update streamBloomFilter
+        Set<Long> sets = Sets.difference(this.streamSetObjectIds, streamSetObjectIds);
+        sets.forEach(STREAM_ID_BLOOM_FILTER::removeObject);


[nitpick] The variable name 'sets' is misleading as it contains the difference between two sets (newly added objects). It should be called 'removedObjects' or similar to clarify that these are objects being removed from the bloom filter.

Suggested change

sets.forEach(STREAM_ID_BLOOM_FILTER::removeObject);

Set<Long> removedStreamSetObjectIds = Sets.difference(this.streamSetObjectIds, streamSetObjectIds);

removedStreamSetObjectIds.forEach(STREAM_ID_BLOOM_FILTER::removeObject);

Copilot · 2025-08-08T04:29:45Z

core/src/main/scala/kafka/log/stream/s3/metadata/StreamMetadataManager.java

        // retry all pending tasks
        retryPendingTasks();
-        this.indexCache.asyncPrune(this::getStreamSetObjectIds);
+        this.indexCache.asyncPrune(() -> streamSetObjectIds);


The lambda captures the local variable 'streamSetObjectIds' which refers to the old set of objects. This should capture 'this.streamSetObjectIds' to use the updated set of stream set object IDs.

Suggested change

this.indexCache.asyncPrune(() -> streamSetObjectIds);

this.indexCache.asyncPrune(() -> this.streamSetObjectIds);

fix lint

superhx · 2025-08-22T06:18:26Z

core/src/main/scala/kafka/log/stream/s3/metadata/StreamMetadataManager.java

            this.metadataImage = newImage;
            changedStreams = delta.getOrCreateStreamsMetadataDelta().changedStreams();
        }
+        this.streamSetObjectIds = Collections.unmodifiableSet(getStreamSetObjectIds());


#getStreamSetObjectIds only returns the current node's SSO. I think that STREAM_ID_BLOOM_FILTER#removeObject is expected to remove all deleted SSO.

superhx · 2025-08-22T06:27:50Z

core/src/main/scala/kafka/log/stream/s3/metadata/StreamMetadataManager.java

+        }
+    }
+
+    public static class DefaultRangeGetter implements S3StreamsMetadataImage.RangeGetter {


The class could be extracted to a separated file.

superhx · 2025-08-22T08:05:43Z

s3stream/src/main/java/com/automq/stream/s3/index/lazy/StreamSetObjectRangeIndex.java

+        });
+    }
+
+    public CompletableFuture<Long> searchObjectId(int nodeId, long streamId, long startOffset) {


The nodeId is unused in here.

superhx · 2025-08-22T08:10:07Z

metadata/src/main/java/org/apache/kafka/image/S3StreamsMetadataImage.java

    public CompletableFuture<InRangeObjects> getObjects(long streamId, long startOffset, long endOffset, int limit,
        RangeGetter rangeGetter) {
-        return getObjects(streamId, startOffset, endOffset, limit, rangeGetter, null);
+        return getObjects(streamId, startOffset, endOffset, limit, rangeGetter, LocalStreamRangeIndexCache.create());


Do we still need LocalStreamRangeIndexCache? I think we could replace it with StreamSetObjectRangeIndex#putIndex when the current node've uploaded a new SSO.

superhx · 2025-08-22T08:22:41Z

metadata/src/main/java/org/apache/kafka/image/S3StreamsMetadataImage.java

        return ctx.cf;
    }

+    private boolean readEndOffset(long streamId, long endOffset) {


If it's a Kafka-Level read, the endOffset will be the streamEndOffset.

If it's a readhead read, the endOffset wll be -1.

So both cases are readEndOffset == true.

github-actions · 2025-11-21T03:42:41Z

This PR is being marked as stale since it has not had any activity in 90 days. If you would like to keep this PR alive, please ask a committer for review. If the PR has merge conflicts, please update it with the latest from trunk (or appropriate release branch)

If this PR is no longer valid or desired, please feel free to close it. If no activity occurs in the next 30 days, it will be automatically closed.

feat(metadata): extract stream range index by lazy load Object

a12b947

lifepuzzlefun requested review from 1sonofqiu, Gezi-lzq, superhx and woshigaopp as code owners July 28, 2025 09:16

lifepuzzlefun added 5 commits July 28, 2025 18:01

feat(metadata): extract stream range index by lazy load Object

48c2323

fix checkstyle

feat(metadata): extract stream range index by lazy load Object

c6abb79

fix spotbugs

feat(metadata): extract stream range index by lazy load Object

50e74ec

fix spotbugs

feat(metadata): extract stream range index by lazy load Object

2f36aa0

fix spotbugs

perf(s3stream): avoid S3StreamSetObject objectId long primitive unboxing

351c991

fix lint

daniel-y requested a review from Copilot August 8, 2025 04:28

Copilot AI reviewed Aug 8, 2025

View reviewed changes

perf(s3stream): avoid S3StreamSetObject objectId long primitive unboxing

8e166a3

fix lint

superhx reviewed Aug 22, 2025

View reviewed changes

github-actions bot added the Stale label Nov 21, 2025

	private static final Object DUMMAY_OBJECT = new Object();
	private static final Object DUMMY_OBJECT = new Object();

	synchronized (NodeRangeIndexCache.class) {
	synchronized (StreamSetObjectRangeIndex.class) {

	expireCache.get(streamId, () -> DUMMAY_OBJECT);
	expireCache.get(streamId, () -> DUMMY_OBJECT);

	longLongTreeMap.remove(startOffset, objectId);
	longLongTreeMap.remove(startOffset);

	sets.forEach(STREAM_ID_BLOOM_FILTER::removeObject);
	Set<Long> removedStreamSetObjectIds = Sets.difference(this.streamSetObjectIds, streamSetObjectIds);
	removedStreamSetObjectIds.forEach(STREAM_ID_BLOOM_FILTER::removeObject);

	this.indexCache.asyncPrune(() -> streamSetObjectIds);
	this.indexCache.asyncPrune(() -> this.streamSetObjectIds);

feat(metadata): extract stream range index by lazy load StreamSetObject #2710

Are you sure you want to change the base?

feat(metadata): extract stream range index by lazy load StreamSetObject #2710

Uh oh!

Conversation

lifepuzzlefun commented Jul 28, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull Request Overview

Reviewed Changes

Uh oh!

Copilot AI Aug 8, 2025

Choose a reason for hiding this comment

Uh oh!

Copilot AI Aug 8, 2025

Choose a reason for hiding this comment

Uh oh!

Copilot AI Aug 8, 2025

Choose a reason for hiding this comment

Uh oh!

Copilot AI Aug 8, 2025

Choose a reason for hiding this comment

Uh oh!

Copilot AI Aug 8, 2025

Choose a reason for hiding this comment

Uh oh!

Copilot AI Aug 8, 2025

Choose a reason for hiding this comment

Uh oh!

superhx Aug 22, 2025

Choose a reason for hiding this comment

Uh oh!

superhx Aug 22, 2025

Choose a reason for hiding this comment

Uh oh!

superhx Aug 22, 2025

Choose a reason for hiding this comment

Uh oh!

superhx Aug 22, 2025

Choose a reason for hiding this comment

Uh oh!

superhx Aug 22, 2025

Choose a reason for hiding this comment

Uh oh!

github-actions bot commented Nov 21, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

lifepuzzlefun commented Jul 28, 2025 •

edited

Loading